查看原文
其他

大数据时代语言研究的方法和趋向

刘海涛 林燕妮 语言生活研究 2022-12-22

伴随着信息化进程不断推进,近年来,以规模性(Volume)、多样性(Variety)、 高速性(Velocity)和价值性(Value)的“4V”特 征著称的“大数据”(Big Data),开始改变人类的社会生活和思维方式,并形成了新的研究范式 ,在自然科学和人文社会科学领域均有不少新发现。由此可见,信息时代对语言研究提出了挑战,同时也带来了新的机遇。
1

语言研究的转变:从“花园”到“灌木丛”

2016年8月,词汇功能语法(Lexical Functional Grammar) 的提出者琼·布里斯南(Joan Bresnan) 获得了计算语言学学会(Association for Computational Linguistics)授予的终身成就奖。布里斯南的获奖感言后来发表在《计算语言学》(Computational Linguistics)2016 年第4期上,题为《语言学 :花园与灌木丛》。文章中,布里斯南回忆了自己从语言学的“花园”走向“灌木丛”的经历。她认为,目前大多数传统意义上的语言学理论,与现实社会所需要的语言学理论存在着本质的区别。包括生成语法在内的传统语言学属于“花园里的语言学”,主要分析语言学家依靠精挑细选或内省得出的语言现象,并通过句法树、短语等符号来进行定性概括。而“灌木丛中的语言学”或“野地里的语言学”研究的是人们日常交流所使用的真实语言,通常借助条件概率、信息量等来进行定量分析。当面对的不再是花园里那些整整齐齐、完美精致的花儿,而是大片杂芜纷乱的野生灌木丛时,花园里用的那一套工具与方法就极有可能失效。

布里斯南是乔姆斯基的博士生,她在文中还回忆了自己 20 世纪 60 年代在麻省理工学院跟随乔姆斯基读博士的情况。那个时期,整个世界都为乔姆斯基的想法所吸引。语言被视为符号模式所组成的集合,通过采用符号逻辑公式,分析人类语言结构,探索人类的语言与心智——这当然是非常激动人心 的。当时被这个想法所鼓舞的人很多。其中有一位工科博士,比她在麻省理工入学早几年,甚至一度打算从他攻读的信息论专业转到语言学。但由于他 导师不同意,他只好把信息论的博士读完 。这个人正是后来说要“解雇语言学家”的杰利内克。这不禁令人疑惑 :语言学发展的几十年间,是什么使得像杰利内克这样一位热衷于理论(形式)语言学的热血青年,变成一个“解雇语言学家”的冷面老板?最大的问题可能出在主流语言学的研究材料和方法上。如上所述,自然语言处理需要面对真实的、多样化的语言,如同在大千世界里自然生长的灌木丛。如果像栽培花园里的花朵一样,只用几个精选好的句子,可能难以发现真实语言的规律。

无论是传统语言学还是现代语言学,研究的对象都是人类语言。不管语言学家是否准备好了,信息时代都已来临。信息的主要载体之一是语言,信息时代的语言研究可能要同时考虑人和计算机的需 要,这是一种信息时代的语言观。自然语言处理所面对的是真实的语言材料,真实语言最显著的特点是概率性,即,语言的合法性介于可能与不可能之间,具有梯度性,而不是非此即彼的简单二分。科学研究一般均涉及抽象建模的过程。模型的特征对应的是研究对象可观察的属性。理论并不能直接解释现实世界本身,而是要通过抽象之后的模型以及它所对应的现实来进行解释。因此,理论的预测能力取决于模型和现实之间的对应关系。如果在建模的过程中忽略了研究对象最本质的特性,没有反映其真实面貌,那么通过这一模型发现的成果最后就很难被别人使用。这可能是绝大多数语言学家被计算语言学所抛弃的重要原因之一。当然,我们不能仅以此例来评价语言学存在的意义与价值。但布里斯南从“花园”走向“灌木丛”的经历,说明信息时代的语言研究可能正面临着重要转变。 

毋庸置疑,20世纪50年代起,乔姆斯基所倡导的语言形式化方法与理论为我们带来了一场语言学革命。然而,这几十年语言研究的理论与实践均表明,语言研究可能还需要一些新的转变。具体而言,第一,在研究对象上,应更多地关注真实的语言材料,关注与语言系统的关系;第二,在研究方法上,需要根据真实语言材料的特点,采用先进的技术手段与研究方法,以此来弥补内省法或定性手段的不足 ;第三,在模型选择上,更需要关注模型的跨语言有效性,而不囿于某种特定的语言,因为语言学研究的是人类的语言,语言学家所发现的规律更多的应该是人类语言的普遍规律。否则,语言研究者可能会离这个时代越来越远。

2

大数据时代为语言研究带来新机遇

信息时代在给当今的语言研究带来挑战的同时,也为实现上述转变提供了新的契机。前文提到的转变,实质上更多的是方法的转变,即从内省方法到数据驱动方法的转变。数据驱动意味着语言研究也可以具有或应该适应信息时代的另一个特征,也就是我们今天常听到的“大数据”。虽然“大数据” 这个提法不太严谨,因为“大数据”除了规模大之外,还具有种类多、处理速度快、价值密度低等特点。但无论是“大数据”还是最近提的“厚数据”,说的都是我们正处在一个数据唾手可得的时代。对于语言学家而言,我们应该更看重“数据”这个时代特征,更关心数据驱动的语言研究路向,而不只是数据的多少。换言之,我们更应该关心的是能用数据来解决哪些语言学问题,或者能发现那些过去我们注意不到或无法研究的语言规律。从这个意义上说,数据为我们提供的是一种研究范式、一种观察研究对象的方法和工具。

首先,基于数据的方法为我们提供了感知研究对象的量化维度,令我们对研究对象有一个更清晰、更精确、更细微的认识。宛如从不同的距离和视角观察同一个事物,从宏观到微观,随着观测距离的推近与拉远,所看到的世界以及给人们带来的体验会很不一样。有了更多的真实语言材料,有助于更深入而真实地反映语言的概貌。基于数据的方法能反映语言的一些本质特征,其中一个特征是语言的概率性 。例如,在以内省法为研究手段的语言学中,打星号(“*”)标记的句子,按母语者的语感是不符合语法或不能接受的。然而在日常生活中,这些打了星号的句子实际上有相当一部分人在使用。大量研究表明,人们理解或产出的语言,按照规定性语法,并不是“能接受”与“不能接受” 的绝对二分,而是介于两者之间。假如有大量语言数据的支撑,那么在很难描述某种说法的合理性时,也就便于更细致地区分语法上可接受的程度。数据手段有助于更好地反映语言的真实状态和本质特点,正如伯纳德·科姆里(Bernard Comrie)在《语言共性和语言类型》前言中的最末一句话 :“语言学研究语言,而语言是民众实际所讲的语言。” 

此外,数据能更好地帮助我们研究人类的语言规律和认知规律之间的关系。我们知道,语言是一个符号系统。而以往的很多研究把人与语言分离开来,只做纯粹的形式符号分析。但实际上,语言是由人驱动的符号系统,或更精确地讲,是一种人驱复杂适应系统。语言的结构模式和演化规律均受到生理、心理、认知等内部因素,以及自然社会等外部因素的综合影响。其中,内部因素的普遍性决定了语言的共性,外部因素的差异造就了语言的多样性。一方面,认知普遍性在一定程度上决定了语言的普遍性。例如,递归被认为是人类语言最本质 的特点,但实际上递归并非是无穷的,三层以上的递归现象在实际使用中很少出现。人不能完全等同于机器,人是受到认知因素约束的。另一方面,人生活在一定的自然环境和社会环境中,这些自然、社会、文化等因素可能会对语言有所影响,从而形成了世界上多种多样的语言。因此,从大量来自于真实语言运用的数据出发,有助于我们更好地发现或解释人类语言的普遍性和多样性。

节选自:新疆师范大学学报(哲社版), 2018 (1): 72-83.
特别推荐

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存